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Prufungsantrag gem. § 44 PatG ist gestellt 

® Verfahren und System zum Autorisieren von Sprachbefehlen 

@ In einer mit Sprachbefehlen arbeitenden Einrichtung 
werden Sprachbefehle dadurch autorisiert, da£ vorbe- 
stimmten Sprachbefehlen vorbestimmte Orte zugeordnet 
werden, in denensich eine den Befehl sprechende Person 
befinden muB, damit der Sprachbefehl ausgefuhrt wird. 
Der Sprachbefehl wird von einem Mikrofon erfafct. 
Gleichzeitig wird von einer dem vorbestimmten Ort zuge- 
ordneten Kamera die Mundbewegung einer dort spre- 
chenden Person erfafit und der Befehl zur Ausfuhrung nur 
freigegeben, wenn die Mundbewegung mit dem vom Mi- 
krofon erfaSten Audiosignal korreliert. 
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Beschreibung 

Die Erfindung betrifft ein Verfahren zum Autorisieren 
von Sprachbefehlen sowie ein System zum Autorisieren von 
Sprachbefehlen in einer mittels Sprachbefehlen gesteuerten 5 
Einrichtung. 

Fortschritte auf dem Gebietder Spracherkennung erm6g- 
lichen in zunehmendem MaB eine komforiable Steuerung 
von Funkuonseinheiten Uber Sprachbefehle. Dazu wird liber 
ein Mikrofon aufgenommene Sprache zunachst im Hinblick 10 
auf darin enthaltene typische Laute, Worte oder Wortfolgen 
analysiert und die festgestellten Laute. Worte oder Wortfol- 
gen werden anschlieBend mit in einem Befehlsspeicher ab- 
gelegten Befehlen verglichen, die in Form von typischen 
Lauten, Worten oder Wortfolgen abgelegt sind. Bei tlberein- 15 
stimmung wird der jeweilige Befehl aktiviert. 

Aus der EP 0 082 304 Al ist bekannt, Sprache in Verbin- 
dung miL Gcsichtscrkcnnung als biomctrischc Mcrkmals- 
kombi nation zu verwenden, um eine Person zu identifizie- 
ren und dadurch beispielsweise zu uberprufen, ob eine Per- 20 
son zur Oberwindung eines Zugangskontrollsystems autori- 
siert ist. Dazu werden stiinmspezifische Merkmale der zu 
uberprufenden Person, die ein Schlusselwort in ein Mikro- 
fon spricht, in einem Korrelationsrechner mit friiher gespei- 
cherlen slinmtspezifischen Merkinalen einer bekannten Per- 25 
son verglichen, die dasselbe Schlusselwort auBert. Dadurch 
wird eine erste Korrelationsrate erhalten. Zur gleichen Zeit 
und zwar wenn ein Schltisselereignis in der AuBerung des 
Schlusselwortes durch die zu iiberprflfende Person entsteht, 
wird ein Momentanbild der Mundregion der Person aufge- 30 
nommen, auf die vorher ein Gittermuster projiziert worden 
ist. Dieses Momentanbild wird mit einem vorher gespei- 
cherten, entsprechenden Momentanbild der bekannten Per- 
son verglichen, um eine zweite Korrelauonsrate zu erhalten. 

Die beiden Korrelationsraten werden analysiert, um fest- 35 
zustellen, ob die zu Uberprufende Person mit der bekannten 
Person ubereinstimmt. 

Bei Einrichtungen, die uber Sprachbefehle gesteuert wer- 
den, insbesondere wenn solche Einrichtungen in Kraftfahr- 
zeugen verwendet werden, bestehl ein Problem dahinge- 40 
hend. dafi eine andere Person als die Fahrerin oder der Fah- 
rer des Fahrzeugs Sprachbefehle spricht, die dann als Be- 
fehle erkannt werden und zur Auslosung bestimmter Funk- 
tionen fuhrcn. Dies kann zu fUr den Fahrer verwirrenden 
oder sogar gefahrlichen Zustanden fuhren. ^5 

Der Erfindung liegt die Aufgabe zugrunde, Abhilfe fur 
das vorgenannie Problem zu schaifen. 

Gegenstand des Anspruchs 1 ist ein Verfahren zur Ltfsung 
dieser Aufgabe. 

ErfindungsgemaB wird festgestellt, an welchem Ort sich 50 
eine einen Sprachbefehl sprechende Person befindel und 
werden Sprachbefehle, die'diesem Ort zugeordnet sind, nur 
dann freigegeben, wenn die den jeweiligen Befehl spre- 
chende Person als an dem Ort befindlich erkannt ist. FUr die 
Ortserkennung gibt es unterschiedlichste Mbglichkeiten, 55 
beispielsweise indem die Sprache von mehreren Mikrofo- 
nen erfafit wird, so daB Uber ein Triangulationsverfahren der 
On des Sprechers erkannt werden kann. 

Ein anderes Verfahren zur Ortserkennung des Sprechers 
ist im Anspruch 2 angegeben, wobei dieses Verfahren ge- 60 
maB dem Anspruch 3 zusatzlich dazu verwendet werden 
kann. die Spracherkennung sicherer zu machen. 

Ein System zur LOsung der Erfindungsaufgabe ist im An- 
spruch 4 angegeben. 

Dieses System wird mit den Mcrkmalcn der AnsprUchc 5 65 
bis 8 in voneilhafter Weise weitergebildet. 

Die Erfindung ist Uberail don rail Vorteil einsetzbar. wo 
Sprachsteuersysteme eingesetzt werden, bei denen vorbe- 
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stimmte Befehle nur dann aktiviert werden sollen, wenn sich 
eine den Befehl sprechende Person innerhalb eines vorbe- 
stimmten ortlichen Bereiches befindet. 

Die Erfindung kann in Verbindung mit Personenidentifi- 
zierungssystemen eingesetzt werden, wie sie beispielsweise 
in der eingangs genannten EP 0082 304 Al beschrieben 
sind. Auf diese Wetse kann zusatzlich uberpriift werden, ob 
die in einem vorbestimmten ortlichen Bereich befindliche 
Person eine autorisierte Person ist 

Die Erfindung wird im folgenden anhand schematischer 
Zeichnungen beispielsweise und mit weiteren Einzelheiten 
erlauterl. 

Es stellen dan 

Fig. 1 eine Aufsicht auf einen vereinfacht dargestellten 
Innenraum eines Kraftfahrzeugs, und 

Fig. 2 ein Blockschaltbild des erfindungsgemaBen Sy- 
stems. GemBB Fig. 1 sind im Innenraum eines Kraftfahr- 
zeugs cin Fahrcrsitz 2, cin Bcifahrcrsitz 4 und cine Fondsitz- 
bank 6 angeordnet. 

Im Dachbereich oberhalb der Wlndschutzscheibe befindet 
sich eine Kameraeinrichtung 10 mit Kameras 12 und 14. 
Der Bildwinkel Sl { der Kamera 12 iiberstreicht einen Be- 
reich, in dem sich normalerweise der Kopf des Fahrers be- 
findet Der Bildwinkel C2 2 der Kamera 14 Uberstreicht einen 
Bereich, in dem sich normalerweise der Beifahrer befindel. 

Im Dachbereich vor dem Fondraum ist eine weitere Ka- 
mera 16 angeordnet, deren Bildwinkel Q3 den mittleren Be- 
reich des Fondraums uberstreicht. Weiter sind Mikrofone 18 
und 20 vorgesehen, wobei das Mikrofon 18 dem Fahrer/Bei- 
fahrerraum zugeordnet ist und das Mikrofon 20 dem Fond- 
raum zugeordnet ist. 

Fig. 2 zeigt ein Blockschaltbild der Anordnung gemaB 
Fig. 1. 

Das Mikrofon 18 ist an eine Sprachanalyseeinrichtung 22 
angeschlossen, in der die empfangene Sprache durch Korre- 
lation mil in einem Sprachspeicher 24 abgelegten typischen 
Sprachlauten und Worten analysiert wird und an deren Aus- 
gang den analysierten Lauten bzw. Worten entsprechende 
Signale erzeugt werden. 

Die Kamera 12, die das Gesicht der Fahrerin oder des 
Fahrers 26 erfafit, ist mil einer Bewegungsanalyseeinrich- 
tung 26 verbunden, in der die von der Kamera 12 erfaBten 
Mundbewegungen im Hinblick auf typische Mundbewe- 
gungen analysiert werden und auf ihre Korrelation mit typi- 
schen Mundbewegungen zugeordneten, im Sprachspeicher 
24 vorher gespeicherten typischen Lauten oder Worten 
uberpruft werden. Bei positiver Korrelation erscheinen am 
Ausgang der Bewegungsanalyseeinrichtung . 26 den typi- 
schen Lauten und/oder Worten entsprechende Signale. 

Die Ausgangssignale der Sprachanalyseeinrichtung 22 
und der Bewegungsanalyseeinrichtung 26 werden einer 
Synchronprufeinrichtung 30 zugefuhrt, die nur solche Laute 
und/oder Worte durchlaBt und einer Korrelationseinrichtung 
32 zufuhrt, die zeitgleich aus der Sprachanalyseeinrichtung 
22 und der Bewegungsanalyseeinrichtung 26 ausgegeben 
werden. 

In der Korrelationseinrichtung 32 werden die empfangc- 
nen typischen Laute und/oder Worte mit in einer Sektion I 
eines Befehlsspeichers 34 abgelegten Befehlen verglichen. 
Bei positivem Vergleich wird am Ausgang der Korrelations- 
einrichtung 32 ein entsprechendes Befehlssignal erzeugt 
und in einer Steuereinrichtung 36 in ein entsprechendes 
Steuersignal zum Steuern einer Funkiion umgewandelL 
• Die dem Beifahrer 40 zugeordnete Kamera 14 ist mit ei- 
ner wcitcrcn Bewegungsanalyseeinrichtung 42 verbunden, 
der eine Synchronprufeinrichtung 44 nachgeschaltel ist, die 
mit der Sprachanalyseeinrichtung 22 und einer weiteren 
Korrelationseinrichtung 46 verbunden ist, die mit einer Sek- 
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lion II des Befehlsspeichers 34 und mil der Steuereinrich- 
tung 36 vcrbunden ist. 

Die Kamera 16 des Fondraums ist der Einfachheit halber 
nicht in das Blockschattbild eingezeichnet. Sie ist ahnlich 
geschaltet wie die Kainera 14 bzw. die Kamera 12. Das Fon- 5 
draummikrofon 20 kann unmittelbar an die Sprachanalysee- 
inrichtung 22 angeschlossen sein. 

Die Funklionen der einzelnen entsprechend fortschrittli- 
chen gangigen Verfahren der Spracherkennung, der Bildver- 
arbeiiung und der Informationskorrclaiionen arbeitendcn to 
Komponenien sowie deren Aufbau sind an sich bekannt und 
werden daher nicht erlauteri. 

Im folgenden wird daher lediglich das erfindungsgemaBe 
Zusammenwirken der Komponenien beschrieben: 
Es sei angenommen, der Fahrer 26 sprache das Befehlswon 15 
"Scheibenwischer an". Das Sprechen dieses Sprachbefehls 
wird zum einen voin Mikrofon 18 erfaBt und zum anderen 
von der Kamera 12. In der Sprachanalysccinrichtung 22 
wird durch Vergleich mit im Sprachspeicher 24 abgelegler 
Information ermittelt, daB die Wortgruppe "Scheibenwi- 20 
scher an" gesprochen wurde und am Ausgang der Sprach- 
analyseeinrichtung 22 erscheinl ein enisprechendes Signal. 
In der Bewegungsanalyseeinrichtung 26 werden die Mund- 
bewegungen analysiert, die dem Sprechen der Wonfolge 
"Scheibenwischer an" enlsprechen und durch Korrelalion 25 
mil im Sprachspeicher 24 abgelegten Informalionen festge- 
stellL daB diese Wortfolge gesprochen wurde, so daB am 
Ausgang der Bewegungsanalyseeinrichtung 26 ein enispre- 
chendes Signal erzeugt wird. In der Synchronpriifeinrich- 
tung 30 wird uberpriift, ob beide Signale synchron zueinan- 30 
der sind, so daB das synchrone Signal zu der Korrelations- 
einrichtung 32 durchgelassen wird, in der uberpriift wird, ob 
deni Signal ein im Befehlsspeicher 34 abgelegler Befehl 
entspricht. 1st im Befehlsspeicher 34 ein entsprechender Be- 
fehl "Scheibenwischer an" abgelegt, so sendet die Korrelali- 35 
onseinrichtung 32 ein enisprechendes Signal an die Steuer- 
einrichtung 26, in der ein Steuersignal zum Inbetriebsetzen 
des Scheibenwischers erzeugt wird. 

Wird die Wortfolge "Scheibenwischer an" vom Beifahrer 
40 gesprochen, so lauft der geschilderte Vorgang in der 40 
Sprachanalyseeinrichtung 22, der Bewegungsanalyseein- 
richtung 42. der Synchronprufeinrichtung 44 und der Korre- 
lationseinrichtung 46 ab. In der Korrelalion sei nrichtung 46 
erfolgt keine positive Korrelalion mil einem in der Sektion 
II des Befehlsspeichers 34 abgelegten Befehl, da in der Sek- 45 
lion II nur solche Befehle abgelegt sind, die fur den Beifah- 
rer erlaubte Befehle sind. Entsprechend wird die Steuerein- 
richtung 36 nichl akiiv, wenn 'der Beifahrer 40 den Befehl 
"Scheibenwischer an" spricht. 

Durch Segmentierung der in dem Befehlsspeicher 34 ab- 50 
geleglen Befehle in einzelne Sektionen, die unterschiedli- 
chen Kameras bzw. Grtlichen Bereichen im Fahrzeuginneren 
zugeordnet sind, wird somit ermoglicht, daB Sprachbefehle 
nur dann ausgeflihrt werden, wenn sie aus einem, dem je- 
weiligen Sprachbefehl zugeordneten raumlichen Bereich 55 
des Fahrzeuginnenraums kommen. Dabei kOnnen be* 
stimmie Befehle durchaus alien Bcreichcn des Fahrzeugin- 
nenraums zugeordnet sein beispielsweise "Innenbeleuch- 
tung an" oder "Radio aus" und so weiier. Weiter ist es m8g- 
lich, daB ein Befehl "Temperatur h&her" unterschiedliche 60 
Funklionen auslost, je nachdem, ob er vom Fahrer, Beifahrer 
oder aus dem Fond gesprochen wird. In einer Heizungs- 
/Klimaanlage werden dann entsprechende Funklionen aus- 
gelOst, die den Ortlichen Bereichen zugeordnet sind. 

Es vcrstchi sich wcitcr, daB der Fahrer beispielsweise mit- 65 
lels einer nicht dargestellten Bedieneinheit Befehle einzel- 
nen crtlichen Bereichen zuordnen kann; beispielsweise kann 
er Telefonfunktionen fiir den gesamten Innenraum freige- 
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ben, nur fUr den Beifahrer freigeben usw. 

In der bzw. den Synchronprufeinrichtungen 30, 44 kon- 
nen versiiiminelie Worte, die beziiglich ihrer Synchronisie- 
rung noch erkennbar sind, die aher nichl vollstandig aufge- 
nommen sind, beispielsweise weil der Mund der sprechen- 
den Person teilweise verdeckt wird oder ein Gerausch das 
gesprochene Wort Oberdeckt, durch gegenseitige Korrela- 
tion erganzt werden, so daB die QualitSt der der Korrelaii- 
onseinrichtung 32 zugeordneten Information bzw. Worte 
vcrbesserl ist. 

Die Ertindung kann in vielfaltiger Weise abgeandert wer- 
den. Beispielsweise ktfnnen die den unterschiedlichen Ka- 
meras zugeordneten Sprachanalyseeinrichtungen, Syn- 
chronpriifeinrichtungen und Korrelationseinrichtungen in 
einem gemeinsamen Hardware-Baustein zusarnrnengefaBt 
sein, wobei die von der jeweiligen Kamera erfaBte optische 
Information hinsichtlich ihrer Kamerazuordnung gekenn- 
zcichnct wird. Die vcrschicdcncn Sektionen des Befehls- 
speichers 34 kSnnen dadurch ausgebildet sein, daB den ins- 
gesamt im Befehlsspeicher 34 befindlichen Befehlen Infor- 
mationen hinsichtlich der jeweiligen ortlichen Bereiche 
bzw. Kameras zugefugt sind. Die Synchronpriifung zwi- 
schen optischen und akuslischen Inforniationen kann bereits 
vor der Analyse hinsichtlich vorbestimmter Sprachbau- 
sleine erfolgen, da zwischen der gesprochenen Sprache und 
den erfaBten Mundbewegungen Grundkorrelationen beste- 
hen beispielsweise zwischen Sprachbeginn und Beginn ei- 
ner Mundbewegung. Der Innenraum des Fahrzeugs kann in 
mehrere Bereiche aufgeteilt sein, beispielsweise der Fond- 
raum in drei nebeneinander angeordnete Bereiche. Das Sy- 
stem kann auf den AuBenraum erweitert werden, der von ei- 
ner oder mehreren Kameras bereichsweise uberdeckt wird. 

In vereinfachter Ausfuhrungsform kann das System dazu 
verwendet werden festzustellen, ob eine Sprache uberhaupl 
von einer im Sichtfeld einer Kamera befindlichen Person 
ausgeht, indem eine Synchron izitai zwischen akustisch auf- 
genommener Sprache und optisch erfaBter Mundbewegung 
festgestelli oder nur festgestellt wird, ob sich ein Mund be- 
wegt. Liegt keine Mundbewegung vor, so wird eine Sprach- 
auswertung gar nicht aktiviert, so daB Rechner lei stung ein- 
gesparl bzw. nichl unnotig verbraucht wird. 

Patentanspriiche 

1. Verfahren zum Autorisieren von Sprachbefehlen, 
bei welchem Verfahren vorbestimmten Sprachbefehlen 
wenigstens ein vorbestimmter Ort zugeordnet wird, an 
dem sich eine die Befehle sprechende Person befinden 
rnuB, damit die Sprachbefehle ausgefuhrt werden, fest- 
gestelli wird, ob sich eine einen Sprachbefehl spre- 
chende Person an dem Ort befindet und bei positiver 
Feststellung die AusfUhrung der Sprachbefehle freige- 
geben wird. 

2. Verfahren nach Anspruch 1, wobei 
Sprache akustisch aufgenommen und hinsichtlich typi- 
scher Laute analysiert wird, wenigsiens eine Kamera 
Mundbewegungen einer an einem vorbestimmten Ort 
befindlichen Person erfaBt, 

die aufgenommenen Mundbewegungen hinsichtlich ly- 
pischer Mundbewegungen analysiert werden, 
die lypischen Mundbewegungen und die typischen 
Laute hinsichtlich ihrer zeidichen Obereinsiirnmung 
verglichen werden und 

bei positivem Vergleich der On des Sprechers als der 
On der mit der Kamera aufgenommenen Person identi- 
ftziert wird. 

3. Verfahren nach Anspruch 2, wobei typischen Mund- 
bewegungen typische Laute zugeordnet sind und aku- 
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siisch schlecht aufgenommene Laute durch typische 
Lautc crsctzi werden, die zeitgleich aufgenommcDcn, 
typischen Mundbewegungen zugcordnet sind. 

4. System zum Autorisieren von Sprachbefehlen in ei- 
ner mittels Sprachbefehlen gesteuerten Einrichtung, 5 
enthallend ein Mikrofon (18, 20) zur Aufnahme von 
Sprache, 

eine dem Mikrofon nachgeschaltete Sprachanalyseein- 
richtung (22) zur Analyse der Sprache hinsichtlich ty- 
pischer Laute und/oder Worte, 10 
eine Kameraeinrichtung (12, 14, 16), die Mundbewe- 
gungen einer an einem vorbestirnmien Ort befindlichen 
Person aufnimmt, 

eine der Kamera nachgeschalieten Bewegungsanaly- 
seeinrichtung (28, 42), die die aufgenommenen Mund- 15 
bewegungen hinsichtlich typischer Mundbewegungen 
und/oder diesen zugeordneten typischen Lauten und/ 
odcr Wortcn analysicru 

eine SynchronprUfeinrichtung (30, 44), die die typi- 
schen Mundbewegungen und/oder die aus diesen abge- 20 
leiteten typischen Laute und/oder Worte hinsichtlich 
ihrer zeitHchen Obereinsummung mit aus der Sprach- 
analyse hergeleiteten typischen Lauten und/oder Wor- 
ten vergleicht und bei Ubereinstimmung weiterleitet, 
und eine Korrelaliunseinrichiung (32, 46), die durch 25 
Vergleich der weiterge leiteten typischen Laute und/ 
oder Worte mit in einem Befehlsspeicher (34) gespei- 
cherten Befehlen Befehlssignale an eine Steuereinrich- 
tung (36) weitergibt, die die Befehle in diesen zugeord- 
nete Steuersignaie umsetzt. 30 

5. System nach Anspruch 4, wobei die Kameraeinrich- 
tung (12, 14, 16) derart ausgebildet ist, daB die Mund- 
bewegungen von an unterschiedlichen vorbestimniten 
Orten befindlichen Orten erfaBbar sind und den unter- 
schiedlichen Orten vorbeslimmte zulassige Befehle zu- 35 
geordnet sind. 

6. System nach Anspruch 4 oder 5, wobei eine Spei- 
chereinrichtung (24) vorgesehen ist, in der typischen 
Mundbewegungen zugeordnete . typische Laute und/ 
oder Worte abgelegt sind, und die Korrelationseinrich- 40 
tung (32, 46) bei schlechter Qualitat der akustisch auf- 
genommenen typischen Laute und/oder Worte die den 
zeitgleich aufgenommenen Mundbewegungen zuge- 
ordneten typischen Laute und/oder Worte weiterleitet, 

7. System nach einem der Anspriiche 4 bis 6, wobei 45 
die Kamera (12, 14, 16) den Fahrer- und Beifahrerraum 

in einem Krafifahrzeug erfaBt und die Steuersignaie 
zur Steuerung von Funktionen vorgesehen sind. 

8. System nach Anspruch 7, wobei eine Kamera (16) 
den Fondraum des Kraft fahrzeugs erfaBt. so 
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